” Q-learning“ 的搜索结果

     是用在决策上的一个策略,以概率ε选择随机动作,以概率1-ε选择当前最优动作,比如epsilon = 0.9的时候,就说明百分之90的情况我会按照Q表的最优值选择行为,百分之10的时间随机选择行为。alpha:学习率,决定这次...

     强化学习基于环境的反馈而行动,通过不断与环境的交互、试错,最终完成特定目的或者使得行动收益最大化。强化学习不需要训练数据,但是它需要每一步行动环境给予的反馈,是奖励还是惩罚,反馈可以量化,基于反馈不断...

     Q-learning是强化学习中的一种重要算法,它通过与环境的交互学习到一个最优策略,使得累积奖励最大化。Q-learning算法不需要事先知道环境的状态转移概率和奖励函数,因此适用于许多实际问题。需要注意的是,Q-...

     深度SARSA和深度Q学习-LunarLander-v2 环境 在这个项目中,我试图从OpenAI体育馆解决Lunar Lander环境。这是一个二维环境,其目的是教导登月舱模块安全地着陆在固定在点(0,0)的着陆垫上。该代理具有3个推进器:一...

     1 Q-Learning算法简介 1.1 行为准则 我们做很多事情都有自己的行为准则,比如小时候爸妈常说:不写完作业就不准看电视。所以我们在写作业这种状态下,写的好的行为就是继续写作业,知道写完他,我们还可以得到奖励。...

     深入的Q-Learning强化学习代理尝试在交叉路口选择正确的交通信号灯相位以最大化交通效率的框架。 我已将其上传到此处,以帮助任何人寻找通过SUMO进行深度强化学习的良好起点。 这段代码是从我的硕士论文中提取的,...

10  
9  
8  
7  
6  
5  
4  
3  
2  
1